为普罗米修斯之火立法:AIGC新规下的治理困境
本文将结合生成式人工智能的技术实务及《办法》规定,提出治理实操过程中监管者和生成式人工智能服务提供者可能遇到的三重困境并尝试探寻解决路径。
一、引 言
史学大家许倬云先生说:“人工智能就像普罗米修斯盗的火”,火种让人类成为万物之灵,人工智能高效取代部分人类劳动后已然迸发了巨大价值,我们无比期待人工智能的火种将把人类带向何方。与此同时,也要注意人工智能带来的数据安全、伦理道德等诸多难以预知的挑战和风险。为“普罗米修斯之火”立法迫在眉睫。
在上述背景下,我国先后颁布《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等规定。2023年7月13日,网信办等七部委联合发布《生成式人工智能服务管理暂行办法》(简称“《办法》”,将于2023年8月15日正式生效),成为全球首部针对生成式人工智能的法规。
本文将结合生成式人工智能的技术实务及《办法》规定,提出治理实操过程中监管者和生成式人工智能服务提供者可能遇到的三重困境并尝试探寻解决路径。
二、识火:何为生成式人工智能(AIGC)?
自Open AI研发的聊天机器人程序ChatGPT发布以来,生成式人工智能技术便广为人知。所谓生成式人工智能(简称“AIGC”)通常是指能够产生文字、图像或其他媒体以回应提示工程(Prompt engineering,即以自然语言直接输入的任务,而非输入参数)的人工智能系统。
AIGC最大的特点是可以学习输入数据的模式和结构,然后产生与训练数据相似但具有一定程度新颖性的新内容,而不仅仅是分类或预测数据。目前业内用于处理AIGC的最突出框架包括生成对抗网络和基于转换器的生成式预训练模型。
重点条文及主旨:
根据《办法》第二条、第二十二条之规定,《办法》规制的责任主体是利用AIGC技术(包括通过提供可编程接口等方式提供AIGC服务)向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务者(包括组织或个人)。
值得注意的是,《办法》第二十二条特别强调:责任主体包括通过提供可编程接口等方式提供AIGC服务的服务者。
什么是可编程接口?可编程接口又称应用程序接口(application programming interface,简称“API”)。API是为两个不同的应用之间实现流畅通信而设计的应用程序编程接口,通常被称为应用程序的“中间人”。和USB等硬件接口一样,API能够将程序内部实现的功能封装起来,使得程序像一个盒子一样只留出一个口子,人们接入这个口子就可以方便地使用这些功能,并且不需要知道功能的具体实现过程。
理解了可编程接口后,我们会发现根据《办法》第二十二条的定义可能会出现同一产品有责任主体重叠的情况。例如,某款文档处理软件内嵌了某款AIGC的可编程接口,则该文档软件的开发者同时也在利用AIGC提供服务,其是否也需要承担《办法》规定的AIGC服务提供者责任?如需要,则接口提供者与利用者的责任该如何划分?由于可编程接口是处于被“封装”的“黑箱状态”,通常接口利用者无权控制相应AIGC的训练数据、算法、生成内容等。接口提供者与接口利用者的责任边界还有待后续法规与监管口径进一步明晰。
四、第二重困境:训练数据治理
重点条文及主旨:
根据《办法》第七条,AIGC的训练数据处理需:来源合法、不侵害他人知识产权、涉及个人信息的取得个人同意、符合法律法规规定。
基于AIGC的特点,训练数据治理同时存在理论与实操层面的困境。
理论层面:业内对于“将他人享有著作权的作品作为AIGC训练数据是否构成侵权”问题的争议甚嚣尘上。在《办法》出台前,学者通常从生成内容入手,基于AIGC生成作品与训练数据使用的作品实质性相似或带有训练数据使用作品的创作元素等基本表达论证AIGC侵权问题。而《办法》则直接从训练数据治理入手,要求训练数据“不侵害他人知识产权”。但究竟使用他人享有著作权的作品作为训练数据是否构成侵权,又应认定为侵犯著作权中的哪一项专有权仍有待立法及司法解释进一步明确。
治理实操层面:AIGC的训练需要使用海量数据,一般可通过网络爬取或采购数据集方式获得。
网络爬取(Web Crawler)也称为蜘蛛爬虫(Web Spider),其本质上是一套可实现高效下载的程序,可按照指定规则,通过遍历网络内容的方式,搜集、提取所需的网页数据,并下载到本地形成互联网网页镜像备份。
采购数据集就是直接向服务商购买已经搜集整理完成的数据集合。
采购数据集可以通过采购流程的事前审批、事后监管等予以治理。但如果是通过网络爬取训练数据的,无论是权利人还是监管部门都难以在相关数据被爬取时获知。甚至对于AIGC提供者而言,因网络爬取程序的自动性,一般也很难完全控制爬取范围。而且,网络爬取程序本身也难以识别哪些数据是符合《办法》第七条规定的。
有意见称可以要求所有AIGC只能从无风险的固定范围获取训练数据,但这无疑又将严重限制AIGC发展,恐有违发展与安全并重的原则。AIGC提供者对训练数据的管理义务边界还有待后续法规及监管口径进一步明晰。
五、第三重困境:生成内容治理
重点条文及主旨:
根据《办法》第十四条,提供者发现违法内容的,应当及时采取停止生成等处置措施,采取模型优化训练等措施进行整改。
基于AIGC的特点,生成内容治理在实操层面同样存在困境。且不谈色情、
歧视等内容在法律层面的界定也存在许多争议。实操层面,由于AIGC生成的内容同样是海量的,输入的提示工程略有差异,其生成的内容就截然不同,因此提供者不可能人工审查所有AIGC可能生成的全部内容。因此,生成内容的治理目前比较依赖使用者的举报。《办法》第十五条也特别强调了提供者应当建立健全投诉举报机制。然而,投诉举报仅能起到“查漏补缺”的作用,应当只是完整治理机制的补充。
目前,业内已有用AIGC检测AIGC的实际应用,为AIGC提供者建立完善的内容治理机制提供了可行方案。简言之,就是用一个AIGC生成的特定内容作为任务指令去系统性测试另一个AIGC生成的内容是否存在风险。
六、结 语
为“普罗米修斯之火”立法谈何容易,我国网信办等相关部门的行动已然走在了世界前列。随着我国制定《人工智能法》已提上日程,此后相关配套细则也将逐步发布,人工智能的监管体系势必日渐完善。如何防止“普罗米修斯之火”成为“潘多拉魔盒”?此应日夜思虑之。
往期热文